🔮Что такое проклятие размерности и как с ним справиться?Проблема в том

Библиотека собеса по Data Science | вопросы с собеседований

🔮Что такое проклятие размерности и как с ним справиться?

Проблема в том, что в высокоразмерных пространствах данные становятся очень разреженными. Вот пример:

🟣 Допустим, мы используем метод ближайших соседей для задачи классификации. Чтобы алгоритм хорошо работал, объекты должны быть расположены достаточно плотно в пространстве признаков. Так, в единичном интервале [0,1] ста равномерно разбросанных точек будет достаточно, чтобы покрыть этот интервал с частотой не менее 0.01. Однако если мы возьмём 10-мерный куб, то для той же степени покрытия потребуется уже 10^{20} точек.

Если данные будут сильно разбросаны в многомерном пространстве, то вероятность переобучения увеличивается. В общем, большое количество признаков требует всё более объёмных наборов данных.

Что можно с этим сделать:
✔️провести отбор признаков;
✔️снизить размерность данных с помощью метода главных компонент (PCA).

www.tg-me.com/tw/Библиотека собеса по Data Science | вопросы с собеседований/com.ds_interview_lib/131

1.4K viewsDec 1, 2023 at 11:35

tg-me.com/ds_interview_lib/131

Create: 2023-12-01
Last Update: 2025-07-05 15:15:14

BY Библиотека собеса по Data Science | вопросы с собеседований

Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/131

Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

🔮Что такое проклятие размерности и как с ним справиться?Проблема в том